根据研究人员在歧视和校准性能方面采用的标准评估实践,这项工作旨在了解阶级不平衡对胸部X射线分类器的性能的影响。首先,我们进行了一项文献研究,分析了普通科学实践并确认:(1)即使在处理高度不平衡的数据集时,社区也倾向于使用由大多数阶级主导的指标; (2)包括包括胸部X射线分类器的校准研究仍然罕见,尽管其在医疗保健的背景下的重要性。其次,我们对两个主要胸部X射线数据集进行了系统实验,探讨了不同类别比率下的几种性能指标的行为,并显示了广泛采用的指标可以隐藏少数阶级中的性能。最后,我们提出了通过两个替代度量,精密召回曲线和平衡的Brier得分,这更好地反映了系统在这种情况下的性能。我们的研究结果表明,胸部X射线分类器研究界采用的当前评估实践可能无法反映真实临床情景中计算机辅助诊断系统的性能,并建议改善这种情况的替代方案。
translated by 谷歌翻译